2018_GraphWave

一、GraphWave [2018]

《Learning Structural Node Embeddings via Diffusion Wavelets》

structural role discovery $a$ $b$ 在图中相距甚远，但它们具有相似的结构角色（ structural role ）。直观而言，具有相似结构角色的节点在网络中执行相似的功能，例如公司社交网络中的 manager 、或者细胞分子网络中的酶。这种节点相似性的定义与传统的定义非常不同。传统的节点相似性定义假设图上一定程度的平滑性（ smoothness ），因此网络中距离较近的节点是相似的。这种关于节点结构角色的信息可用于各种任务，包括作为机器学习问题的输入、识别系统中的关键节点（如社交网络中的核心 “影响者”、传染图中的关键 hub）。
当在离散空间上定义节点的结构角色时，这些结构角色对应于局部网络邻域（local network neighborhood）的不同拓扑，例如链条上的节点、星形的中心、两个簇之间的 bridgepre-defined $v$ embedding $\mathbf{\vec x}_v$ 。这启发了根据拓扑 embeddingstructural similarity $\epsilon \gt 0$ $\text{dist}(\mathbf{\vec x}_a,\mathbf{\vec x}_b) \le \epsilon$ $a,b$ 被定义为 ϵ-structurally similar的。因此这种方法必须引入适当的embedding 方法以及一个合适的距离函数dist() 。
虽然已有几种方法来学习图中节点的结构 embedding （structural embedding），但是现有方法对拓扑中的小扰动极为敏感，并且缺乏对所学到 embedding 特性的数学理解。此外，它们通常需要人工标记拓扑特征（《RolX: structural role extraction & mining in large graphs》）、依赖于不可扩展non-scalable 的启发式方法（《struc2vec: Learning node representations from structural identity》）、和/或返回单个相似性得分而不是多维结构 embedding （《Scalable and axiomatic ranking of network role similarity》，《Axiomatic ranking of network role similarity》）。
在论文 《Learning Structural Node Embeddings via Diffusion Wavelets》 中，作者通过开发 GraphWave 来解决图上的结构学习（structure learning）问题。基于图信号处理（graph signal processing ）技术，论文的方法基于以节点为中心的谱图小波的扩散（ diffusion of a spectral graph wavelet ），从而为每个节点学习多维连续的结构 embedding 。直观而言，每个节点在图上传播一个能量单位（ a unit of energy），并根据网络对该探针（probe ）的响应来刻画其邻域拓扑（ neighboring topology ）。论文正式证明了这个小波（wavelet ）的系数与图拓扑性质直接相关。因此，这些系数包含恢复结构相似节点的所有必要信息，而无需对特征进行显式地人工标记（ hand-labeling ）。
$L_2$ 距离。这种节点对之间的一一映射计算量太大，因此是难以实现的。所以这些小波方法从未被用于学习结构embedding 。
为了克服这一挑战，论文提出了一种新的方法从而将小波视为图上的概率分布。这样，结构信息包含在 “diffusion 如何在网络上传播”，而不是“diffusion 在网络上传播到哪里”。为了提供 embedding ，论文使用经验特性函数（empirical characteristic function ）来嵌入这些小波分布（ wavelet distribution ）。经验特性函数的优点是它们捕获给定分布的所有矩（包括高阶矩）。正如论文在数学上证明的那样，这允许 GraphWave 对局部边结构（ local edge structure ）中的小扰动具有鲁棒性。GraphWave 的计算复杂度在 edge 数量上是线性的，因此可以扩展到大型（稀疏的）网络。最后，论文在真实数据集和人工合成数据集上，将 GraphWave 与几个 SOTA 基准进行比较，获得了 137% 的提升。论文还展示了GraphWave 如何成为图中结构 embedding 的有效工具。
论文的主要贡献如下：
- 论文通过将谱图小波（spectral graph wavelet）视为概率分布，并使用经验特性函数来刻画这个分布，从而提出了谱图小波的新用途。
- 论文利用这些洞察开发了一种可扩展的方法 GraphWave，该方法基于图中结构相似性来学习节点 embedding，并优于现有的 SOTA 基准方法。
- 论文在数学上证明 GraphWave 准确地恢复了结构相似（structurally similar ）和结构等价（structurally equivalent）的节点。
相关工作：关于挖掘相似结构角色节点的先前工作通常依赖于节点的显式特征。在基于这种 heuristic representation 计算节点相似性之前，这些方法生成每个节点的局部拓扑属性（local topological property ）的详尽列表，例如节点（ degree）、节点参与的三角形数量、k-clique 数量、PageRank 得分。这些方法中的一个值得注意的例子是 RolX，它是一种基于矩阵分解的方法，旨在使用递归的特征抽取（ recursive feature extractionsoft　clustering $K$ 个不同角色。类似地，struc2vec 使用启发式方法构建基于拓扑指标（topological metric ）的 multilayer graph ，并在图上模拟随机游走从而捕获结构信息。相比之下，我们的方法不依赖于启发式（因为我们在数学上证明了我们方法的有效性），并且不需要显式的人工特征工程、或人工超参数调优。
最近的神经表示学习（ neural representation learning ）方法（structure2vec、neural fingerprint、graph convolutional network: GCN、message passing network 等等）是相关的研究方向。然而，这些 graph embedding 方法不适用于我们的 setting，因为它们解决了监督的图分类任务、和/或嵌入了整个 graph。相比之下，我们的方法是无监督的，并且仅嵌入单个节点。
另一类相关工作是 graph diffusion kernel （《Diffusion maps》），该方法已被用于各种图建模任务。然而，据我们所知，我们的论文是第一个应用 graph diffusion kernel 来确定图中结构角色的论文。 kernel 已被证明可以有效地捕获几何属性，并已成功用于图像处理社区中的形状检测（shape detection）。然而，与形状匹配（shape-matching ）问题相比，GraphWave 将这些 kernel 视为真实世界的图上的概率分布。这是因为我们考虑的图是高度不规则的（与欧式图 Euclidean graph 和流形图 manifold graph 相反）。因此，传统的小波方法通常分析以规则和可预测的模式发生的、特定节点上的节点扩散（ node diffusion ），这种方法并不适用于我们的场景。相反，GraphWave 刻画了扩散的形状（diffusion shape），而不是扩散发生的特定节点。这一关键洞察使我们能够发现结构 embedding，从而进一步发现结构相似的节点。

1.1 模型

$\mathcal G=(\mathcal V,\mathcal E)$ $\mathcal V$ $\mathcal E$ $N$ $\mathbf A$ $\mathbf D$ $D_{i,i} = \sum_j A_{i,j}$ 。
embedding $v\in \mathcal V$ ，我们希望在一个连续的多维空间中学得一个 embedding 来表示它的结构角色（structural role ）。我们将这个问题构建为基于谱图小波（spectral graph wavelet）的无监督学习问题，并开发了一种称为 GraphWave 的方法。该方法从数学上保证了所学到结构 embedding 的最优性能。

1.1.1 谱图小波

$\mathbf L = \mathbf D-\mathbf A$ $\mathbf U$ $\mathbf L$ 的特征向量（eigen　vector ）组成的特征矩阵，则有：
$L = U Λ U^{T}$
$\mathbf\Lambda = \text{diag}(\lambda_1,\cdots,\lambda_N)$ $\lambda_1\le \lambda_2\le\cdots\le \lambda_{N}$ $\mathbf L$ 的特征值（eigen　value ）。
图拉普拉斯矩阵的性质：
- $0\le \lambda_1\le\cdots\le \lambda_N$ 。
- $\lambda_1 = 0$ ，因为拉普拉斯矩阵每一行的和均为零。
- 0 $0=\lambda_1\lt \lambda_2\le\cdots\le \lambda_N$ 。
- $\lambda_2$ 。
$g_s$ scaling $s$ 的滤波器核（filter kernelheat kernel $g_s(\lambda) = e^{-\lambda s}$ scaling wavelet $s$ $s$ 值。
graph signal processing $g_s$ spectral graph wavelet $v$ $\Psi_v$ 定义为：
$Ψ_{v} = U diag (g_{s} (λ_{1}), \dots, g_{s} (λ_{n})) U^{⊤} {\vec{δ}}_{v} \in R^{N}$
$\vec\delta_v$ $v$ one-hot $v$ 对应的位置为10 $v$ $m$ $\Psi_{m,v} = \sum_{l=1}^N g_s(\lambda_l)U_{m,l}U_{v,l}$ 。
$\mathbf \Psi = \mathbf U \text{diag}(g_s(\lambda_1),\cdots,g_s(\lambda_{N}))\mathbf U^\top\in \mathbb R^{N\times N}$ $v$ $\Psi_v$ $v$ $m$ $\Psi_{m,v}$ 。
$\;\Psi_{m,v}$ $v$ $m$ $\Psi_{m,v}= \Psi_{v,m}$ 。
$g_s$ 调制（ modulate ）了特征谱（eigen　spectrum ），使得响应信号位于空域的局部区域以及频域的局部区域。如果我们将拉普拉斯矩阵和信号系统中的 ”时域-频域“ 进行类比，则发现：
- 较小特征值对应的特征向量携带变化缓慢的信号，从而鼓励邻居节点共享相似的信息。
- 较大特征值对应的特征向量携带迅速变化的信号，从而使得邻域节点之间区别较大。
low-pass filter kernel $g_s$ 可以看作是一种调制算子（modulation operator），它降低了较高的特征值并在图中平滑了信号的变化。

1.1.2 GraphWave

GraphWave $v$ ，GraphWave 返回表示其结构embedding2d $\mathbf{\vec x}_v\in \mathbb R^{2d}$ ，使得局部网络结构相似的节点拥有相似的 embedding 。
diffusion pattern $\mathbf \Psi = \mathbf Ug_s(\mathbf \Lambda)\mathbf U^\top\in \mathbb R^{N\times N}$ $v$ $v$ 为中心的 heat kernel 产生的谱图小波。
scaling $s$ $v$ $\Psi_{m,v}$ $v$ $m$ $m$ $v$ $u$ $v$ $\Psi_u$ $\Psi_v$ 。这是一个关键的洞察，这使得 GraphWave 可以通过谱图小波学习节点的结构 embedding 。
$\Psi_v$ $d$ spectral graph wavelet coefficient distribution $2d$ $X$ 的特性函数定义为：
$ϕ_{X} (t) = E [e^{i t X}], t \in R$
$X$ $X$ 的所有矩的信息。将它进行泰勒展开得到：
$\begin{matrix} ϕ_{X} (t) = E (1 + \frac{i t X}{1} + \frac{(i t)^{2} X^{2}}{2!} + \dots + \frac{(i t)^{n} X^{2}}{n!} + \dots) \\ = 1 + \underset{一阶矩}{\underset{⏟}{\frac{i t E [X]}{1}}} + \underset{二阶矩}{\underset{⏟}{\frac{(i t)^{2} E [X^{2}]}{2!}}} + \dots + \underset{n阶矩}{\underset{⏟}{\frac{(i t)^{n} E [X^{n}]}{n!}}} + \dots \end{matrix}$
$v$ scale s $\Psi_v$ 的经验特性函数定义为：
$ϕ_{v} (t) = \frac{1}{N} \sum_{m = 1}^{N} e^{i t \times Ψ_{m, v}}$
$\phi_v(t)$ $d$ $\{t_1,\cdots,t_d\}$ 。最终得到：
${\vec{x}}_{v} = {(Re (ϕ_{v} (t_{1})), Im (ϕ_{v} (t_{1})), \dots, Re (ϕ_{v} (t_{d})), Im (ϕ_{v} (t_{d})))}^{⊤} \in R^{2 d}$
$\phi_v(t)$ $d$ $2d$ 的 embedding，因此embedding 的维度和图的大小无关。
GraphWave 核心思想：节点空域的局部结构相似性问题，转变为频域的小波相似性问题。它并没有采用最优化过程来优化某个代价函数，因此也没有梯度下降法来迭代求解。
GraphWave 算法：
- 输入：
  - $\mathcal G=(\mathcal V,\mathcal E)$
  - scale $s$
  - $d$ $\{t_1,\cdots,t_d\}$
- embedding $\left\{\mathbf{\vec x}_v\in \mathbb R^{2d}\right\}_{v\in \mathcal V}$
- 算法步骤：
  - $\mathbf L$ $\mathbf L = \mathbf U\mathbf\Lambda \mathbf U^\top$ 。
  - $\mathbf \Psi = \mathbf Ug_s(\mathbf \Lambda)\mathbf U^\top$ 。
  - $t\in \{t_1,\cdots,t_d\}$ $\phi(t)\in \mathbb R^{N}$ $e^{it\mathbf \Psi}$ column-wise $v\in \mathcal V$ $\phi_v(t)$ $\mathbf{\vec x}_v$ $\phi_v(t)$ $\phi(t)$ $v$ 个元素。
    $d$ $d$ 个虚部，则得到一个 2d 维的向量。
结构 embedding 之间的距离：GraphWave 的输出为图中每个节点的结构embeddingembedding $L_2$ $u$ $v$ 之间的结构距离定义为：
$dist (u, v) = | | {\vec{x}}_{u} - {\vec{x}}_{v} | |_{2}$
根据函数的定义，这相当于在小波系数分布上比较不同阶次的矩。
scalingscaling $s$ $v$ 周围的网络邻域的半径。
- $s$ 会使用较小半径的邻域来确定节点的结构 embedding 。
- $s$ 会使得扩散过程在网络上传播得更远，从而导致使用较大半径的邻域来确定节点的结构 embedding 。
GraphWave $s$ embedding $J$ embedding $\mathbf{\vec x}_v^{(s_j)},j=1,2,\cdots,J$ 来实现的，每个embeddingscale $s_j$ $s_j\in [s_\min,s_\max]$ $s_\min,s_\max$ 。
GraphWave $v$ 聚合的结构embedding 为：
${\vec{x}}_{v} = {(Re (ϕ_{v}^{(s_{j})} (t_{i})), Im (ϕ_{v}^{(s_{j})} (t_{i})))}_{t_{i}, s_{j}}^{⊤}$
$\mathbf \Psi$ $O(|\mathcal E|)$ $O(K\times |\mathcal E|)$ $K$ 表示切比雪夫多项式逼近的阶数。因此 GraphWave 的整体计算复杂度是 edge 数量的线性的，这使得 GraphWave 可以扩展到大型稀疏网络。

1.1.3 理论分析

这里我们为基于谱图小波的模型提供了理论动机。我们首先通过理论分析表明：谱图小波系数刻画了局部网络领域的拓扑结构。然后我们理论上证明：结构等价/相似的节点具有几乎相等/近似的embedding ，从而为 GraphWave 的最优性能提供了数学保证。
$v$ $v$ $\Psi_{ m,v }$ $v$ $m$ 之间网络连通性（network connectivity ）的度量。
$[0,\lambda_{N}]$ Stone-Weierstrass $g_s$ $[0,\lambda_{N}]$ $P$ ，则这个多项式逼近是紧的 tight，其误差是一致有界的 uniformaly bounded 。即：
$\forall ϵ > 0, \exists P : P (λ) = \sum_{k = 0}^{K} α_{k} λ^{k}, s . t . | g_{s} (λ) - P (λ) | \leq ϵ \forall λ \in [0, λ_{N}]$
$K$ $\alpha_k$ $r(\lambda) = g_s(\lambda) - P(\lambda)$ 为残差。
$v$ 的谱图小波以多项式逼近的形式重写为：
$Ψ_{v} = (\sum_{k = 0}^{K} α_{k} L^{k}) {\vec{δ}}_{v} + U r (Λ) U^{⊤} {\vec{δ}}_{v}$
$\mathbf U$ $r(\lambda)$ 是一致有界的，因此我们可以通过Cauchy-Schwartz 不等式将等式右侧的第二项进行不等式变换：
$\begin{matrix} {| {\vec{δ}}_{m} \cdot (U r (Λ) U^{⊤} {\vec{δ}}_{v}) |}^{2} = {(\sum_{j = 1}^{N} r (λ_{j}) U_{v, j} U_{m, j})}^{2} \\ \leq (\sum_{j = 1}^{N} | r (λ_{j}) |^{2} U_{v, j}^{2}) (\sum_{j = 1}^{N} U_{m, j}^{2}) \leq ϵ^{2} \end{matrix}$
$\left(\mathbf Ur(\mathbf\Lambda)\mathbf U^\top\vec \delta_v\right)$ $m$ $\sum_{j=1}^{N}U_{m,j}^2 = 1$ $\mathbf U$ 为单位正交矩阵），以及：
$\sum_{j = 1}^{N} | r (λ_{j}) |^{2} U_{v, j}^{2} \leq \sum_{j = 1}^{N} ϵ^{2} U_{v, j}^{2} = ϵ^{2}$
$\Psi_v\simeq \left(\sum_{k=0}^K\alpha_k\mathbf L^k\right)\vec \delta_v$ $K$ $v$ $K$ 阶邻域信息。这表明谱图小波主要受到顶点的局部拓扑结构影响，因此小波包含了生成顶点结构embedding 所必须的信息。
结构等价节点的 embeddingembedding $u$ $v$ $K$ $K$ $u$ $v$ $u$ $v$ 在 GraphWave 中具有 ϵ-structurally similar embedding 。
$g_s$ $K$ 阶：
$g (s) = e^{- λ s} ≃ P (λ, s) = \sum_{k = 0}^{K} (- 1)^{k} \frac{(s λ)^{k}}{k!}$
$\lambda$ Taylor-Lagrange $c_\lambda \in [0,s]$ ，使得：
$| r (λ) | = | g (s) - P (λ, s) | = \frac{(λ s)^{K + 1}}{(K + 1)!} e^{(- λ c_{λ})} \leq \frac{(λ s)^{K + 1}}{(K + 1)!}$
$s$ 使得满足：
$s \leq \frac{((K + 1)! ϵ)^{1 / (K + 1)}}{λ_{2}}$
$|r(\lambda)|\le \epsilon$ $\lambda$ $\epsilon$ 是一个参数，可以根据结构等效的顶点的embeddingϵ-structurally similar $s$ $\epsilon$ 更小，使得上界越紧。
$\lambda_2$ $\lambda_1 = 0$ 。
$u$ $v$ one-to-one $\pi$ $u$ $K$ $\mathcal N_K(u)$ $v$ $K$ $\mathcal N_K(v)$ $\mathcal N_K(v) = \pi(\mathcal N_k(u))$ $u$ $K$ $\pi$ $\mathcal G$ 上。
$K$ 阶多项式近似，我们有：
$\begin{matrix} | Ψ_{m, u} - Ψ_{π (m), v} | = | {\vec{δ}}_{m} \cdot (U (P (Λ) + r (Λ)) U^{⊤} {\vec{δ}}_{u}) - {\vec{δ}}_{π (m)} \cdot (U (P (Λ) + r (Λ)) U^{⊤} {\vec{δ}}_{v}) | \\ \leq | (U P (Λ) U^{⊤})_{m, u} - (U P (Λ) U^{⊤})_{π (m), v} | + | (U r (Λ) U^{⊤})_{m, u} | + | (U r (Λ) U^{⊤})_{π (m), v} | \end{matrix}$
- $u$ $v$ $K$ 阶邻域是等价的，以及拉普拉斯算子 K 阶幂的局部性（表示路径为 K 的路径）则有：
  ${\begin{cases} (\sum_{k = 0}^{K} α_{k} L^{k})_{m, u} = (\sum_{k = 0}^{K} α_{k} L^{k})_{π (m), v}, & \forall m \in N_{K} (u) \\ (\sum_{k = 0}^{K} α_{k} L^{k})_{m, u} = (\sum_{k = 0}^{K} α_{k} L^{k})_{π (m), v} = 0, & \forall m \notin N_{K} (u) \end{cases}$
  因此这一项可以约掉。
  $m$ $u$ $K$ $m$ $u$ $K$ 的路径。
- $\epsilon$ ，因此有：
  $| Ψ_{m, u} - Ψ_{π (m), v} | \leq 2 ϵ$
  $\Psi_u$ $\Psi_v$ $2\epsilon$ 。
  考虑到我们使用经验特性函数来描述分布，因此这种分布的相似性就转换为embedding 的相似性。因此如果选择合适的 scale ，则结构上等价的节点具有 ϵ-structurally similar embedding 。
结构相似节点的 embedding ：接着我们证明局部邻域结构相似的顶点具有相似的 embedding 。
$v$ $K$ $\mathcal N_K(v)$ $\tilde{\mathcal N}_K(v)$ $v$ $K$ $v$ $K$ $\tilde{\mathbf L}$ ，接下来我们证明：如果顶点邻域的扰动很小，则顶点的小波系数的变化也很小。
$\forall k\le K, ||\mathbf L^k-\tilde{\mathbf L}^k||_F\le \epsilon$ $g_s$ $K$ 阶泰勒公式在零点展开来表示扰动图的小波系数：
$\tilde{Ψ} = \sum_{k = 0}^{K} α_{k} {\tilde{L}}^{k} + \tilde{U} r (\tilde{Λ}) {\tilde{U}}^{⊤}$
Weyl $\tilde\lambda$ $r(\tilde \lambda)$ $r(\lambda)$ 接近：
$r (\tilde{λ}) = r (λ) + o (ϵ) \leq C ϵ$
$o(\epsilon)$ $\epsilon$ $C$ 为一个常数。
综合所有因素，则有：
$\begin{matrix} | Ψ_{m, v} - {\tilde{Ψ}}_{m, v} | \leq | \sum_{k = 0}^{K} α_{k} (L^{k} - {\tilde{L}}^{k})_{m, v} | + {| \tilde{U} r (\tilde{Λ}) {\tilde{U}}^{⊤} |}_{m, v} + {| U r (Λ) U^{⊤} |}_{m, v} \\ = (\sum_{k = 0}^{K} | α_{k} | + 1 + C) ϵ \end{matrix}$
因此在GraphWave 中，结构相似的顶点具有相似的 embedding 。

1.1.4 scale 参数

heat kernel $g_s$ scale $s$ 找到合适的取值范围，该方法将在 GraphWave 的多尺度版本中使用。
heat diffusion $s_\min$ $s_\max$ 来作为区间边界。直观而言：
- $s$ 值使得热传播的时间较短，从而使得热扩散的小波分布没有意义，因为此时只有很少的几个小波系数是非零，绝大多数小波系数都是零。
- $s$ $1/N$ 的同温状态。这意味着扩散分布diffusion distribution 与数据无关，因此没有信息。
insight $s_\min$ $s_\max$ 。
$\Psi_v(s)$ 中非对角线的系数的方差与以下指标成正比：
$VAR [{Ψ_{m, v}^{(s)} ∣ m \neq v}] \propto Δ_{v}^{(0)} Δ_{v}^{(2 s)} - {(Δ_{v}^{(s)})}^{2}$
$\Delta_v^{(s)} = |\Psi_{v,v}^{(s)} - \frac {1}{N}|$ $s$ $\Psi_{v,v}^{(s)} = \sum_{l=1}^{N}e^{-\lambda_ls}U_{v,l}^2$ $s$ 的增加单调递减。
$\Psi_{v,v}^{(0)} = 1$ $\Delta_v^{(0)} = |1 - \frac{1}{N}|$ 。
$\Psi_v$ $\tilde\mu_v^{(s)} = \sum_{m\ne v} \Psi_{m,v}^{(s)}/(N-1)$ $\Psi_{v}$ $\sum_{m\ne v}\Psi_{m,v}^{(s)} = 1-\Psi_{v,v}^{(s)}$ 。
根据方差的定义有：
$\begin{matrix} VAR [{Ψ_{m, v}^{(s)} ∣ m \neq v}] = \frac{1}{N - 1} \sum_{m \neq v} {(Ψ_{m, v}^{(s)} - {\tilde{μ}}_{v}^{(s)})}^{2} \\ = (\frac{1}{N - 1} \sum_{m \neq v} (Ψ_{m, v}^{(s)})^{2}) - {({\tilde{μ}}_{v}^{(s)})}^{2} \\ = \frac{N}{(N - 1)^{2}} (Ψ_{v, v}^{(2 s)} \frac{N - 1}{N} - {(Ψ_{v, v}^{(s)})}^{2} + \frac{2 Ψ_{v, v}^{(s)}}{N} - \frac{1}{N}) \\ = \frac{N}{(N - 1)^{2}} (Δ_{v}^{(0)} Δ_{v}^{(2 s)} - {(Δ_{v}^{(s)})}^{2}) \end{matrix}$
$\Delta_v^{(s)}$ $\Delta_v^{(s)}$ 。为了确保小波系数的分布具有足够大的容量（即分布的多样性足够大），我们需要最大化方差。
$[s_\min,s_\max]$ $\Delta_v(s)$ 足够大，从而使得diffusion 既有足够长的时间来扩散、又不至于太长以至于到达网络的收敛状态（所有顶点的温度都相同）。
$\Delta_v(s)$ “足够大”并不意味着最大化这个变量。
$\Psi_{m,v}^{(s)}$ 的收敛上下界为：
$e^{- λ_{N} ⌈ s ⌉} Δ_{v}^{(0)} \leq Δ_{v}^{(s)} \leq e^{λ_{2} ⌊ s ⌋} Δ_{v}^{(0)}$
$s$ 有：
$\begin{matrix} Δ_{v}^{(s + 1)} = | Ψ_{v, v}^{(s + 1)} - \frac{1}{N} | = | \sum_{l = 2}^{N} e^{- λ_{l} (s + 1)} U_{v, l}^{2} | = | \sum_{l = 2}^{N} e^{- λ_{l} s} U_{v, l}^{2} \times e^{- λ_{l}} | \\ \leq e^{- λ_{2}} | \sum_{l = 2}^{N} e^{- λ_{l} s} U_{v, l}^{2} | = e^{- λ_{2}} | Ψ_{v, v}^{(s)} - \frac{1}{N} | = e^{- λ_{2}} Δ_{v}^{(s)} \end{matrix}$
$0=\lambda_1\lt\lambda_2\le\cdots\le\lambda_N$ $e^{-\lambda_2}\ge \cdots\ge e^{-\lambda_N}$ $\left|\Psi_{v,v}^{(s)} - \frac 1{N}\right| = \left|\sum_{l=2}^{N}e^{-\lambda_ls}U_{v,l}^2\right|$ 。
对应的有：
$Δ_{v}^{(s + 1)} = | Ψ_{v, v}^{(s + 1)} - \frac{1}{N} | \geq e^{- λ_{N}} | Ψ_{v, v}^{(s)} - \frac{1}{N} | = e^{- λ_{N}} Δ_{v}^{(s)}$
因此有：
$e^{- λ_{N}} \leq \frac{Δ_{v}^{(s + 1)}}{Δ_{v}^{(s)}} \leq e^{- λ_{2}}$
$s\in \mathbb N$ ，我们采用数学归纳法可以证明有：
$e^{- λ_{N} s} Δ_{v}^{(0)} \leq Δ_{v}^{(s)} \leq e^{- λ_{2} s} Δ_{v}^{(0)}$
$\Delta_v^{(s)}$ $s$ $s$ 进行向下、向上取整。
$s_\max$ $s_\max$ 使得小波系数被局限在局部邻域上（即不能收敛到同温状态）。根据命题二：
- $\lambda_N$ $\Delta_v^{(s)}$ $e^{-\lambda_Ns}\Delta_v^{(0)}$ （命题二的下界）。
- $\lambda_2$ $\Delta_v^{(s)}$ $e^{-\lambda_2s}\Delta_v^{(0)}$ （命题二的上界）。
$\Delta_v^{(s)}/\Delta_v^{(0)}$ $\eta$ $\eta \lt 1$ $\Delta_v^{(s)}$ $\Delta_v^{(0)}$ $\eta * 100\%$ $\Delta_v^{(s)}$ $s$ 的增加而单调递减），并产生如下形式的边界：
$\frac{Δ_{v}^{(s)}}{Δ_{v}^{(0)}} \geq η$
$e^{-\lambda s}\ge \eta$ $s\le -\log(\eta)/\lambda$ $\lambda$ $\lambda_2$ $\lambda_N$ $[\lambda_2,\lambda_N]$ $\lambda_2$ $\epsilon\%$ $\lambda_N$ $\epsilon\%$ $s_\max$ 为：
$s_{max} = - \frac{\log η}{\sqrt{λ_{2} λ_{N}}}$
$0\lt \eta\le 1$ $\eta$ 1 $s_{\max}$ $\eta$ 0 $s_\max$ 越大。
$s_\min$ $s_\min$ 使得每个小波都有足够长的时间来扩散，即限定：
$\frac{Δ_{v}^{(s)}}{Δ_{v}^{(0)}} \leq γ$
$s_\max$ $s\ge -\log(\gamma)/\lambda$ 。因此我们选择：
$s_{min} = - \frac{\log γ}{\sqrt{λ_{2} λ_{N}}}$
$1\ge \gamma \ge \eta\gt 0$ $\gamma$ 1 $s_{\min}$ $\gamma$ 0 $s_\min$ 越大。
scale $\eta=0.8$ $\gamma = 0.95$ 。

1.2 实验

GraphWave 的 embedding 独立于下游任务，因此我们在不同任务中对其进行评估，从而证明它在捕获网络结构角色方面的潜力。
baseline 方法：我们将 GraphWave 和两个结构嵌入的 SOTA 基准方法 struc2vec、RolX 进行评估。
- struc2vec：struc2vec 通过在 multilayer graph 上的一系列随机游走来发现不同尺度的结构嵌入。
- RolX ：RolX 基于节点特征（如degree、三角形数量）的矩阵的非负矩阵分解的方法，该方法基于给定的一组潜在特征来描述每个节点。注意，GraphWave 和 struc2vec 在连续频谱上学习 embedding，而不是在离散的类别中学习。
- 我们还将GraphWave 和最近的两种无监督节点 representation learning方法node2vec、Deepwalk 方法进行比较，以强调这些方法与我们基于结构相似性方法之间的差异。
对于所有 baselineGraphWave $d=50$ $[0,100]$ $t_i$ 。
我们再次注意到，graph embedding 方法（structure2vec、neural fingerprint、GCN 等等）不适用于这些 setting，因为它们嵌入了整个 graph，而我们嵌入了单个节点。

1.2.1 杠铃图

我们首先考虑一个杠铃图。杠铃图由两个长链组成的稠密团构成，该图包含 8 个不同类别的结构等价节点，如图A 的颜色所示。我们通过PCA 可视化了不同模型学到的embedding ，相同的 embedding 具有相同的投影，这使得图 B~D 上的点发生重叠。
- 从图D 可以看出， GraphWave 可以正确学习结构等价顶点的embedding，这为我们的理论提供了支撑（相同颜色的顶点几何完全重叠）。
- 相反，struc2vec 和 RolX 都无法准确的识别结构等价性（相同颜色的节点并未重叠）。对于 struc2vec ，投影与预期的顺序不一致：黄色节点比红色节点离绿色节点更远。相比之下，RolX 产生高度相似的节点 embedding，其投影聚集成三个 high-level 的分组，这意味着 RolX 可以识别杠铃图中八个结构类别中的三个。
- 所有方法都能识别杠铃图的稠密团的（紫色）的结构，但是只有GraphWave 能够准确识别杠铃图的链上节点的结构角色。

1.2.2 结构等价的图

我们在人工合成的图上评估这些方法。我们开发了一个程序来生成合成图，这些合成图可以植入结构等价的子图，并且给出每个节点角色的真实标签。我们的目的是通过这些真实的角色标签来评估这些方法的性能。
我们的合成图由不同类型的基础形状给出，这些形状类型包括 house,fan,star，它们沿着长度为 30 的圆环规则地放置。我们一共评估四种网络结构配置：
- 在 house 配置中，我们选择将4 个 house 放置在一个长度为 30 的圆环上。
- 在 varied 配置中，我们对每个类型的形状选择8 个，并随机放置在一个长度为 40 的圆环上，从而生成具有更丰富、更复杂结构角色的合成图。
- 在 noise 配置中，我们随机添加边来增加扰动（最多 10% ），从而评估house perturbed, varied perturbed 的鲁棒性。
我们对这四种网络结构 house, varied, house perturbed, varied perturbed 分别构造一个图，然后在这些构造的图上运行不同方法来得到节点 embedding 。
我们通过两种 setting来评估每个embedding 算法的性能：
- 无监督评估 setting：我们评估每种embedding 方法将具有相同结构角色的节点嵌入到一起的能力。我们使用 agglomerative 聚类算法（采用 single linkage ）来对每种方法学到的 embedding 进行聚类，然后通过以下指标来评估聚类质量：
  - 同质性 homogeneity：给定聚类结果的条件下，真实结构角色的条件熵。它评估聚类结果和真实结果的差异。
  - 完整性 completeness：在所有真实结构角色相等的节点中，有多少个被分配到同一个聚类。即评估聚类结果的准确性。
  - 轮廓系数 silhouette score ：它衡量簇内距离和簇间距离的关系。即评估样本聚类的合理性。
    $v_i$ $a_i$ $a_i$ $a_i$ $C_j$ $b_{i,j}$ $b_j=\min_j\{b_{i,j}\}$ $s(i) = \frac{b(i) - a(i)}{\max\{a(i),b(i)\}}$ $s(i)$ 1 $v_i$ $s(i)$ -1 $v_i$ 聚类不合理。
- 监督评估估 setting：我们将学到的节点 embedding 作为特征来执行节点分类，类别为节点的真实结构角色。我们使用kNN 模型，对所有样本进行10 折交叉验证。对于测试集的每个节点，我们根据它在训练集中最近邻的 4 个节点来预测该节点的结构角色，其中”近邻” 是通过 embedding 空间的距离来衡量。最终我们给出分类的准确率和 F1 得分作为评估指标。
所有两种策略的每个实验都重复执行25 次，并报告评估指标的均值。
模型embedding 的效果比较如下图所示。
- 对于无监督和有监督的 setting ，GraphWave 都优于其它四种方法。
- 所有实验中，node2vec、DeepWalk 的效果都很差，其得分显著低于基于结构等价的方法。这是因为这两个方法的重点都是学习节点的邻近关系，而不是节点的结构相似性。
- GraphWave 的效果始终优于 struc2vec ，在每种 setting 下的指标都获得更高的得分。
- 虽然 RolX 在部分实验中效果强于 GraphWave，但是 GraphWave 整体效果较好。
- 轮廓系数silhouette score 表明：GraphWave 发现的簇往往更聚集并且簇之间的间隔更好。
我们将GraphWave 学到的 embedding 进行可视化，这提供了一种观察节点之间结构角色差异的方法。
如图 A 表示一个带 house 的环，图B 是它的 GraphWave 学到的 embedding 的 2 维PCA 投影。这证明了 GraphWave 可以准确区分不同结构角色的节点。
C $\phi_v(t) = \frac {1}{N} \sum_{m=1}^{N}e^{it\times \Psi_{v,m}}$ ，不同颜色对应不同结构角色的节点。其物理意义为：
- 位于图外围的节点难以在图上扩散信号，因此派生出的小波具有很少的非零系数。因此这类节点的特性函数是一个较小的环状 2D 曲线。
- $t$ $x$ $y$ 轴上具有更远的投影。

1.2.3 跨图的 Embedding 泛化

我们分析embedding 如何识别位于不同图上的节点的结构相似性，这是为了评估embedding 能否识别跨图的结构相似性。
我们通过以下过程来生成 200 个具有真实顶点结构角色标签的图。
- 首先以 0.5 的概率来选择环形图或者链式图，从而确定了图的骨架。
- 然后通过均匀随机选择环的大小或者链的长度来决定骨架的大小。
- 最后随机选择一定数量的小图挂载到骨架上，这些小图以 0.5 的概率从 5 个节点的 house 或者 5 个节点的chain 中选取。
为了在噪音环境中评估embedding 方法，我们还在节点之间随机添加10 个随机边，然后训练每个节点的 embedding 。接着用学到的 embedding 来预测每个节点的真实结构角色。
为了评估每个方法在跨图上的泛化能力，我们使用10 折交叉验证，并且对于测试集中的节点我们选择训练集中和它最近邻（通过embedding 来计算距离）的4 个邻居节点来预测该测试节点的标签。注意：所选择的4 个邻居节点可能位于不同的图上。最后我们评估预测的准确率和 F1 得分，评估结果如下。结果表明：
- GraphWave 方法在两个分类指标上均优于所有其它方法，这表明了 GraphWave 具有学习结构特征的能力，这种结构特征对于不同的图都有重要意义，且具有很高的预测能力。
- 最近的无监督节点 representation learning 方法表现不佳，而表现第二好的方法是 RolX 。

1.2.4 可扩展性和鲁棒性

这里我们分析 GraphWave 的可扩展性以及它对输入图中噪声的敏感性。
为评估GraphWave 的可扩展性我们逐渐扩大了合成图的节点数量，我们给出了这些合成图上运行GraphWave 的时间和节点数量的关系，如下图所示。
- GraphWave 的训练时间是边数量的线性函数，因此它是一种快速算法，可以使用稀疏矩阵表示（sparse matrix representation ）来有效地实现。
- GraphWave 的潜在瓶颈是通过经验特性函数将小波系数的分布转换成 embedding 向量。
  这里利用了小波系数的稀疏性。小波系数通常是稀疏的，因为GraphWavescale $s$ 使得小波不会被传播得太远。这种稀疏性可以降低embedding 过程的计算量，因为这里是一组稀疏矩阵相乘，并且在非零元素上应用 element-wise 函数。
- 相比之下，struc2vec 无法应用到大图上，对于仅包含 100 个顶点的图，它都需要高达260 秒来学习顶点的 embedding 。而 RolX 可以扩展到类似大小的图上。
接下来我们评估GraphWave 对噪音的鲁棒性。我们将噪音采取与 varied perturbed 相同的方式注入到图中，噪音水平由随机扰动的边占原始边的百分比给出。
对于每个图，我们首先使用 GraphWave 学习节点embedding，然后使用 affinity propagation 聚类算法对embedding 进行聚类。最后我们根据节点的真实结构角色来评估聚类质量。注意，affinity propagation 算法不需要簇的数量作为输入，而是自动生成簇。这在实验中很重要，因为每个簇的含义可能受到 high level 的噪音而难以理解。
除了同质性、完整性指标之外，我们还报告检测到的聚类的数量，从而衡量 GraphWave 发现的角色的丰富程度，我们随机运行10 次并报告平均结果。
结果如下图所示。结果表明：即使存在强烈的噪音，GraphWave 的性能也是缓慢地降低。

1.2.5 真实数据集

镜像 Karate 网络：我们首先考虑一个镜像 Karate 网络，并使用与 struc2vec 中相同的实验设置。镜像 Karate 网络是通过获取 karate 网络的两个副本，并添加给定数量的随机边而创建的。这些随机边中的每条边连接来自不同副本的镜像节点，代表 karate 俱乐部的同一个人，即镜像边（mirrored edge ）。该实验的目标是通过捕获结构相似性来识别镜像节点。
对于每个节点，我们基于节点embedding 利用 kNN 寻找结构最相似的节点，然后评估这些结构最相似节点中真实结构等价的比例。我们添加镜像边的数量从 1 到 25 不等，实验结果非常一致。GraphWave 的平均准确率为83.2%（最低为 75.2%、最高为 86.2%）、struc2vec 平均准确率为 52.5%（最低为 43.3%、最高为 59.4%）。此外，node2vec 和 DeepWalk 的准确率都不会高于 8.5%，因为它们是基于邻近性而不是结构相似性进行嵌入的。
安然 email 网络：我们考虑对安然公司员工之间的电子邮件通信网络进行学习，由于公司存在组织架构，因此我们预期结构GraphWave 能够学到这种工作职位上的结构等价性。
该网络中每个节点对应于安然的员工，边对应于员工之间的email 通信。员工的角色有七种，包括CEO、总裁（ president）、经理（manager）等。这些角色给出了网络节点的真实标签。我们用不同模型学习每个节点的 embedding，然后计算每两类员工之间的平均 L2 距离，结果如下所示。
- GraphWave 捕获到了安然公司的复杂组织结构。如 CEO 和总裁在结构上与其它角色的距离都很远。这表明他们在电子邮件网络中的独特位置，这可以通过他们与其他人截然不同的局部连接模式来解释。另一方面，trader 交易员看起来离总裁很远、离董事director更近。
- 相比之下，struc2vec 的结果不太成功，每个类别之间的距离几乎均匀分布。
欧洲航空网络：接下来我们分析一系列航空公司网络，这些网络编码了不同航空公司运营的、机场之间的直飞航班。我们考虑六家在欧洲机场之间运营的航空公司：四家商业航空公司、两家货运航空公司。每家航空公司对应一个Graph，其中顶点表示机场/目的地、边表示机场之间的直飞航班。
这里一共有 45 个机场，我们对其标记为枢纽机场（hub airport）、区域枢纽、商业枢纽、重点城市等几个类别，这些类别作为节点的真实结构角色。对每个Graph我们学习图中每个机场的 embedding，然后将来自不同Graph 的同一个机场的 embedding 进行拼接，然后使用 t-SNE 可视化。我们还将拼接后的 embedding 作为 agglomerative 聚类的输入，然后评估同质性、完整性、轮廓系数。
我们衡量了每个簇中的机场与ground-truth 结构角色的对应程度（如上表所示）。从上表可以看到，GraphWave 在所有三个聚类指标上都优于替代方法。
下图展示了机场 embedding 的 t-SNE 可视化。结果如下所示：
- struc2vec 学习的 embedding 捕获了不同的航空公司，可以看到各航空公司的节点几乎各自聚在一起。这表明struc2vec 无法在不同的航空公司网络之间泛化，因此无法识别那些结构等价、但是不属于同一个航空公司的机场。
- RolX 学到的 embedding 的 t-SNE 投影几乎没有任何明显的模式。
- GraphWave 可以学到节点的结构等价性，即使这些节点位于不同的图上。这表明 GraphWave 能够学到针对真实世界网络有意义的结构嵌入。